ИИ024
ROCm и HIP: Подробное 10-главное руководство
Инженерия производительности на графических процессорах AMD
Цели обучения
- Определите архитектурные узкие места с помощью Omniperf и ROCProfiler.
- Оптимизируйте шаблоны доступа к памяти для максимизации пропускной способности HBM2e/HBM3.
- Понимайте планирование волновых потоков и загрузку на вычислительном блоке CDNA.
- Реализуйте оптимизации на уровне инструкций для векторных и матричных ядер.